Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37
Warning: file_put_contents(aCache/aDaily/post/ds_interview_lib/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50 Библиотека собеса по Data Science | вопросы с собеседований | Telegram Webview: ds_interview_lib/967 -
✅Чем отличается использование памяти у оптимизаторов Adam и SGD
Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.
Adam хранит для каждого параметра две дополнительные переменные: 📍m — экспоненциальное среднее градиентов (первая моментная оценка), 📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).
То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.
SGD: 📍В базовом виде — не хранит ничего, кроме самих параметров. 📍С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.
На практике: ➡️Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память. ➡️Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).
Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.
✅Чем отличается использование памяти у оптимизаторов Adam и SGD
Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.
Adam хранит для каждого параметра две дополнительные переменные: 📍m — экспоненциальное среднее градиентов (первая моментная оценка), 📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).
То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.
SGD: 📍В базовом виде — не хранит ничего, кроме самих параметров. 📍С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.
На практике: ➡️Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память. ➡️Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).
Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.
Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.
Mr. Durov launched Telegram in late 2013 with his brother, Nikolai, just months before he was pushed out of VK, the Russian social-media platform he founded. Mr. Durov pitched his new app—funded with the proceeds from the VK sale—less as a business than as a way for people to send messages while avoiding government surveillance and censorship.
Библиотека собеса по Data Science | вопросы с собеседований from hk